Unsupervised image registration commonly adopts U-Net style networks to predict dense displacement fields in the full-resolution spatial domain. For high-resolution volumetric image data, this process is however resource intensive and time-consuming. To tackle this problem, we propose the Fourier-Net, replacing the expansive path in a U-Net style network with a parameter-free model-driven decoder. Specifically, instead of our Fourier-Net learning to output a full-resolution displacement field in the spatial domain, we learn its low-dimensional representation in a band-limited Fourier domain. This representation is then decoded by our devised model-driven decoder (consisting of a zero padding layer and an inverse discrete Fourier transform layer) to the dense, full-resolution displacement field in the spatial domain. These changes allow our unsupervised Fourier-Net to contain fewer parameters and computational operations, resulting in faster inference speeds. Fourier-Net is then evaluated on two public 3D brain datasets against various state-of-the-art approaches. For example, when compared to a recent transformer-based method, i.e., TransMorph, our Fourier-Net, only using 0.22$\%$ of its parameters and 6.66$\%$ of the mult-adds, achieves a 0.6\% higher Dice score and an 11.48$\times$ faster inference speed. Code is available at \url{https://github.com/xi-jia/Fourier-Net}.
translated by 谷歌翻译
Federated learning (FL) enables the building of robust and generalizable AI models by leveraging diverse datasets from multiple collaborators without centralizing the data. We created NVIDIA FLARE as an open-source software development kit (SDK) to make it easier for data scientists to use FL in their research and real-world applications. The SDK includes solutions for state-of-the-art FL algorithms and federated machine learning approaches, which facilitate building workflows for distributed learning across enterprises and enable platform developers to create a secure, privacy-preserving offering for multiparty collaboration utilizing homomorphic encryption or differential privacy. The SDK is a lightweight, flexible, and scalable Python package, and allows researchers to bring their data science workflows implemented in any training libraries (PyTorch, TensorFlow, XGBoost, or even NumPy) and apply them in real-world FL settings. This paper introduces the key design principles of FLARE and illustrates some use cases (e.g., COVID analysis) with customizable FL workflows that implement different privacy-preserving algorithms. Code is available at https://github.com/NVIDIA/NVFlare.
translated by 谷歌翻译
越来越多的自然语言处理研究(NLP)和自然语言理解(NLU)正在研究从大语言模型的嵌入一词中学习或编码的人类知识。这是了解哪些知识语言模型捕获的一步,类似于人类对语言和交流的理解。在这里,我们调查了单词(即价,唤醒,主导地位)的影响以及如何在大型神经网络中预先训练的单词嵌入中编码。我们将人类标记的数据集用作地面真理,并对四种单词嵌入方式进行了各种相关和分类测试。嵌入在静态或上下文化方面有所不同,以及在训练和微调阶段优先考虑特定信息的程度。我们的分析表明,嵌入Vanilla Bert模型的单词并未明显编码英语单词的影响信息。只有在与情绪相关的任务上进行微调或包含来自情感丰富的环境的额外上下文化信息时,只有在bert模型进行微调时,相应的嵌入方式可以编码更相关的影响信息。
translated by 谷歌翻译
作为最成功的AI驱动应用程序之一,推荐系统的目的是通过在我们生活的许多方面提供个性化建议,以有效而有效的方式帮助人们做出适当的决定,尤其是针对各种面向人类的在线服务,例如E-商务平台和社交媒体网站。在过去的几十年中,推荐系统的快速发展通过创造经济价值,节省时间和精力以及促进社会利益,从而使人类受益匪浅。但是,最近的研究发现,数据驱动的推荐系统可能会对用户和社会构成严重威胁,例如传播虚假新闻以操纵社交媒体网站中的公众舆论,扩大不公平为代表性不足的团体或在工作匹配服务中的个人,或从建议结果中推断隐私信息。因此,系统的可信赖性一直吸引着各个方面的关注,以减轻推荐系统引起的负面影响,以增强公众对推荐系统技术的信任。在这项调查中,我们提供了可信赖的推荐系统(TREC)的全面概述,特别关注六个最重要的方面;即安全与鲁棒性,非歧视与公平,解释性,隐私,环境福祉以及问责制和可审计性。对于每个方面,我们总结了最近的相关技术,并讨论了潜在的研究方向,以帮助未来实现值得信赖的推荐系统。
translated by 谷歌翻译
社会建议利用社会关系来增强建议的代表性学习。大多数社会推荐模型都将用户互动(协作领域)和社会关系(社会领域)的用户表示统一。但是,这种方法可能无法模拟用户在两个域中的异质行为模式,从而损害了用户表示的表现力。在这项工作中,为了解决这种局限性,我们为社会建议提出了一个新颖的截面对比度学习框架DCREC。更具体地说,我们建议从项目和社会域中学习分开的用户表示。此外,分离的对比度学习旨在在分散的用户表示之间进行社交建议之间的知识转移。各种现实世界数据集的全面实验证明了我们提出的模型的优势。
translated by 谷歌翻译
可靠的导航系统在机器人技术和自动驾驶中具有广泛的应用。当前方法采用开环过程,将传感器输入直接转换为动作。但是,这些开环方案由于概括不佳而在处理复杂而动态的现实情况方面具有挑战性。在模仿人类导航的情况下,我们添加了一个推理过程,将动作转换回内部潜在状态,形成了两阶段的感知,决策和推理的封闭环路。首先,VAE增强的演示学习赋予了模型对基本导航规则的理解。然后,在RL增强交互学习中的两个双重过程彼此产生奖励反馈,并共同增强了避免障碍能力。推理模型可以实质上促进概括和鲁棒性,并促进算法将算法的部署到现实世界的机器人,而无需精心转移。实验表明,与最先进的方法相比,我们的方法更适合新型方案。
translated by 谷歌翻译
传统的多视图光度立体声(MVP)方法通常由多个不相交阶段组成,从而导致明显的累积错误。在本文中,我们提出了一种基于隐式表示的MVP的神经反向渲染方法。给定通过多个未知方向灯照亮的非陆层物体的多视图图像,我们的方法共同估计几何形状,材料和灯光。我们的方法首先采用多光图像来估计每视图正常地图,这些图用于使从神经辐射场得出的正态定向。然后,它可以根据具有阴影可区分的渲染层共同优化表面正态,空间变化的BRDF和灯。优化后,重建的对象可用于新颖的视图渲染,重新定义和材料编辑。合成数据集和真实数据集的实验表明,与现有的MVP和神经渲染方法相比,我们的方法实现了更准确的形状重建。我们的代码和模型可以在https://ywq.github.io/psnerf上找到。
translated by 谷歌翻译
最近的研究表明,基于神经网络的深度推荐系统容易受到对抗性攻击的影响,攻击者可以将精心制作的虚假用户配置文件(即,伪造用户与之互动的一组项目)注入目标推荐系统,以实现恶意目的,例如促进或降低一组目标项目。由于安全性和隐私问题,在黑框设置下执行对抗性攻击更为实用,在黑框设置下,攻击者无法轻松访问目标系统的体系结构/参数和培训数据。但是,在Black-Box设置下生成高质量的假用户配置文件,对于目标系统的资源有限,这是一项挑战。为了应对这一挑战,在这项工作中,我们通过利用项目的属性信息(即项目知识图)引入了一种新颖的策略,这些信息可以公开访问并提供丰富的辅助知识来增强伪造用户配置文件的产生。更具体地说,我们提出了一项知识增强的黑框攻击框架(KGATTACK),以通过深度强化学习技术有效地学习攻击政策,其中知识图无缝集成到层次结构策略网络中,以生成伪造的用户配置文件,以表演对抗性黑色 - 黑色 - - 黑色 - 黑色 - 盒子攻击。在各种现实世界数据集上进行的全面实验证明了在黑框设置下提出的攻击框架的有效性。
translated by 谷歌翻译
室内场景云的无监督对比学习取得了巨大的成功。但是,室外场景中无监督的学习点云仍然充满挑战,因为以前的方法需要重建整个场景并捕获对比度目标的部分视图。这在带有移动物体,障碍物和传感器的室外场景中是不可行的。在本文中,我们提出了CO^3,即合作对比度学习和上下文形状的预测,以无监督的方式学习3D表示室外景点云。与现有方法相比,Co^3具有几种优点。 (1)它利用了从车辆侧和基础架构侧来的激光点云来构建差异,但同时维护对比度学习的通用语义信息,这比以前的方法构建的视图更合适。 (2)在对比度目标的同时,提出了形状上下文预测作为预训练目标,并为无监督的3D点云表示学习带来了更多与任务相关的信息,这在将学习的表示形式转移到下游检测任务时是有益的。 (3)与以前的方法相比,CO^3学到的表示形式可以通过不同类型的LIDAR传感器收集到不同的室外场景数据集。 (4)CO^3将一次和Kitti数据集的当前最新方法提高到2.58地图。代码和模型将发布。我们认为Co^3将有助于了解室外场景中的LiDar Point云。
translated by 谷歌翻译
模糊文物可以严重降低图像的视觉质量,并且已经提出了许多用于特定场景的脱模方法。然而,在大多数现实世界的图像中,模糊是由不同因素引起的,例如运动和散焦。在本文中,我们解决了不同的去纹身方法如何在一般类型的模糊上进行。对于深入的性能评估,我们构建一个名为(MC-Blur)的新型大规模的多个原因图像去孔数据集,包括现实世界和合成模糊图像,具有模糊的混合因素。采用不同的技术收集所提出的MC-Blur数据集中的图像:卷积超高清(UHD)具有大核的锐利图像,平均由1000 FPS高速摄像头捕获的清晰图像,向图像添加Defocus,而且真实-world模糊的图像由各种相机型号捕获。这些结果概述了当前的去纹理方法的优缺点。此外,我们提出了一种新的基线模型,适应多种模糊的原因。通过包括对不同程度的特征的不同重量,所提出的网络导出更强大的特征,重量分配给更重要的水平,从而增强了特征表示。新数据集上的广泛实验结果展示了多原因模糊情景所提出的模型的有效性。
translated by 谷歌翻译